查看原文
其他

元数据管理解决方案

ruby ruby的数据漫谈
2024-09-27


最近我在撰写一篇关于数据治理体系的文章,其中涉及到了元数据管理。在这篇文章中,我详细介绍了元数据的定义、作用以及元数据管理的功能。具体参加文章《数据治理体系之二-元数据管理》然而,我意识到有些人对于为什么需要进行元数据管理以及目前市场上的元数据管理解决方案还存在一些疑问。因此,我想在这里对这两个问题进行进一步解释。



01

元数据管理的意义‍‍


元数据管理是数据治理的基础,具有非常重要的意义。元数据是描述和解释数据的数据,它包含了数据的定义、结构、关系、属性、业务规则等信息,能够帮助人们更好地理解和使用数据。

这里需要重点说明一下,数据血缘是否属于元数据的范畴,很多数据开发人员认为数据血缘是对数据加工过程的来源和影响的分析,不是元数据的范畴,但是数据血缘按照DAMA的定义,是属于元数据的,我们可以详细看一下DAMA定义的元数据,元数据分为业务元数据,技术元数据,操作元数据。
其中技术元数据包括:
1)物理数据库表名,字段名
2)字段属性
3)数据库对象的属性
4)访问权限
5)数据(CRUD)规则
6)物理数据模型,包括表名称,键,索引
7)记录数据模型与实物之间的关系
8)ETL作业详细信息
9)数据血缘文档、包括上游和下游变更影响的信息
10)周期作业(内容更新)的调度计划和依赖
11)恢复和备份规则
12)数据访问的权限,组,角色。
因此数据血缘不是单独的一个功能,它是元数据管理的其中的一个功能。

既然元数据包含如此多的信息,那么元数据管理的主要意义是什么了?
一、提高数据质量
元数据可以帮助我们发现和解决数据质量问题。通过对元数据的分析和比较,可以发现数据之间的一致性、完整性、准确性等问题,进而采取相应的措施来提升数据质量,比如数据清洗、数据补充等。实时发现集成数据源或目标中的数据问题和不一致,从而通过增加洞察和/或修复时间提升总体数据质量。

二、法规合规性

GDPR、HIPAA、PII、BCBS和CCPA等法规都有数据隐私和安全要求,因此需要标记敏感数据、记录其数据沿袭并描述其流动情况以便追踪。标记敏感数据都是依据元数据信息进行标记的,以及追踪影响范围也是依赖数据血缘的功能。‍‍‍‍‍‍

三、加快获取洞见的速度


扭转当前的85/15规则,该规则使高薪脑力工作者忙于发现、了解和解决错误或不一致性问题,而无法真正分析源数据。让数据分析师不在忙于处理各种数据质量问题,而专注于分析数据,产生业务价值。

四、企业协作
业务部门推动数据监管与企业战略目标之间保持一致,而IT部门处理数据管理的技术操作,由此,元数据管理可以实现发现、信任和使用数据来有效实现组织目标。大家基于统一、标准的一份数据,从而可以获得让大家都可以信任的数据,大家都可以信任的数据是分析数据的基础。

五、提高工作效率,降低成本

通过实施自动化和可重复的元数据管理流程,可以显著提升工作效率。根据报道,使用这种方法可以提高编码工作效率超过85%,元数据发现效率提高70%以上,数据设计效率提高达到50%,数据转换效率提高70%,数据映射效率提高80%。这些结果表明,依赖自动化和可重复的元数据管理流程可以大幅度提高工作效率。


02

元数据管理解决方案‍‍‍‍‍

与其它形式的数据一样,元数据也是有生命周期的,从元数据管理解决方案上来将都应该包含以下内容:

1)元数据创建和采集

2)元数据在一个或者多个存储库中存储

3)元数据集成

4)元数据交付

5)元数据使用

6)元数据控制和管理

因此可以采用不同的架构方式获取,存储,集成,维护元数据,供消费方访问元数据。

一、集中式元数据架构

这种元数据架构由单一的元数据存储库组成,包含不同源的元数据部分,这个架构需要从不同源抽取元数据存储到元数据存储库中。这种架构有它的优缺点

优点:

1)高可用,因为它独立于源系统

2)可以快速检索到元数据,因为存储和查询功能在一起

3)解决数据库结构问题,因为它是采集过来的,不受数据源库的属性影响。

4)在抽取元数据可以转化,补充元数据,保证元数据的完整性

缺点:

1)必须使用复杂的流程保证源头的元数据改变可以快速同步到存储库中。

2)集中存储有一定的存储成本

3)验证和维护自定义代码会对数据源的it人员有要求。

一、分布式元数据架构

分布式元数据架构是指不存储元数据,而是由元数据检索引擎通过实时源系统检索数据来响应用户请求,分布式元数据架构没有持久化的存储库。‍

优点:

1)元数据总是保持最新且有效,因为他是从其它数据源中直接检索。‍

2)自动化元数据查询处理的开发可能简单,只需要很少的人工干预‍‍‍‍‍‍‍‍‍‍‍‍

3)无元数据复制和同步的开发工作。

缺点:

1)无法支持用户定义或者手动插入的元数据项,因为没有存储库可以放置这些添加项‍‍

2)需要兼容不同数据源,需要通过标准、统一的展示方式来呈现来自不同系统的元数据。‍‍‍‍‍‍‍‍

3)查询功能受源数据系统的性能影响

4)元数据的质量完全取决于源系统。


三、混合元数据架构


该架构的方式是部分元数据采用分布式查询,部分采用数据采集的方式集中存储,这样可以弥补两种方案的缺点。即需要考虑用户添加的元数据,重要标准化的元数据,以及来自手工源添加的则集中存储,而不需要额外处理的元数据则实时从源数据库读取。‍‍‍‍‍‍‍‍‍‍‍


以上架构未考虑元数据版本变化的需求,如果需要有元数据版本变化的需求,且对元数据管理要求比较高的情况下,采用集中式架构,如果对元数据要求不高,或者无人工修改,不需要投入较大的开发成本,则可以采用分布式架构和混合元数据架构,这两种架构只能实时展示元数据当前的情况,历史情况未保存。因此元数据管理的解决方案需要依据当前应用场景来确定架构方案。


欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取

新的行业信息,商务合作加微信备注商务合作


往期历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式


继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存